经常性的神经网络(RNNS)已被示出比视觉对象分类任务中的前馈架构更好地执行,尤其是在诸如杂乱的图像之类的具有挑战性的条件下。然而,关于在这些条件下复发信息流动的确切计算作用几乎熟知。在这里,我们测试RNNS培训用于对象分类的假设,以通过类别正交辅助变量(对象的位置,方向和比例)迭代地辅助对象分类。使用诊断线性读数,我们发现:(a)有关辅助变量的信息在所有网络层中的时间越大,(b)此信息确实存在于经常性信息流中,并且其操作显着影响任务性能。这些观察结果确认了通过反复连接的类别 - 正交辅助变量信息传达的假设,并用于优化杂乱环境中的类别推断。
translated by 谷歌翻译
我们研究列表可解码的稀疏平均估计问题。具体来说,对于(0,1/2)$的参数$ \ alpha \,我们获得了$ \ mathbb {r}^n $,$ \ lfloor \ alpha m \ rfloor $的$ m $点。来自分销$ d $的样品,带有未知$ k $ -sparse的平均$ \ mu $。没有对剩余点的假设,该点构成了数据集的大多数。目标是返回包含矢量$ \ widehat \ mu $的候选人列表,以便$ \ | \ widehat \ mu - \ mu \ | _2 $很小。先前的工作研究了在密集设置中可列表可调式估计的问题。在这项工作中,我们开发了一种新颖的,概念上的简单技术,用于列表可解码的均值估计。作为我们方法的主要应用,我们为列表可解码的稀疏平均值估计提供了第一个样本和计算有效算法。特别是,对于带有``认证有限的''$ t $ t $ thements in $ k $ -sparse方向和足够轻的尾巴的发行版,我们的算法达到了$(1/\ alpha)^{o(1/t)的错误(1/\ alpha) } $带有示例复杂性$ m =(k \ log(n))^{o(t)}/\ alpha $和运行时间$ \ mathrm {poly}(mn^t)$。对于高斯嵌入式的特殊情况,我们的算法实现了$ \ theta(\ sqrt {\ log(1/\ alpha)})$的最佳错误保证,并具有Quasi-PolyNomial样本和计算复杂性。我们通过几乎匹配的统计查询和低度多项式测试的下限来补充上限。
translated by 谷歌翻译
我们研究了在存在$ \ epsilon $ - 对抗异常值的高维稀疏平均值估计的问题。先前的工作为此任务获得了该任务的样本和计算有效算法,用于辅助性Subgaussian分布。在这项工作中,我们开发了第一个有效的算法,用于强大的稀疏平均值估计,而没有对协方差的先验知识。对于$ \ Mathbb r^d $上的分布,带有“认证有限”的$ t $ tum-矩和足够轻的尾巴,我们的算法达到了$ o(\ epsilon^{1-1/t})$带有样品复杂性$的错误(\ epsilon^{1-1/t}) m =(k \ log(d))^{o(t)}/\ epsilon^{2-2/t} $。对于高斯分布的特殊情况,我们的算法达到了$ \ tilde o(\ epsilon)$的接近最佳错误,带有样品复杂性$ m = o(k^4 \ mathrm {polylog}(d)(d))/\ epsilon^^ 2 $。我们的算法遵循基于方形的总和,对算法方法的证明。我们通过统计查询和低度多项式测试的下限来补充上限,提供了证据,表明我们算法实现的样本时间 - 错误权衡在质量上是最好的。
translated by 谷歌翻译
We propose a simple solution to use a single Neural Machine Translation (NMT) model to translate between multiple languages. Our solution requires no changes to the model architecture from a standard NMT system but instead introduces an artificial token at the beginning of the input sentence to specify the required target language. The rest of the model, which includes an encoder, decoder and attention module, remains unchanged and is shared across all languages. Using a shared wordpiece vocabulary, our approach enables Multilingual NMT using a single model without any increase in parameters, which is significantly simpler than previous proposals for Multilingual NMT. On the WMT'14 benchmarks, a single multilingual model achieves comparable performance for English→French and surpasses state-of-the-art results for English→German. Similarly, a single multilingual model surpasses state-of-the-art results for French→English and German→English on WMT'14 and WMT'15 benchmarks, respectively. On production corpora, multilingual models of up to twelve language pairs allow for better translation of many individual pairs. In addition to improving the translation quality of language pairs that the model was trained with, our models can also learn to perform implicit bridging between language pairs never seen explicitly during training, showing that transfer learning and zero-shot translation is possible for neural translation. Finally, we show analyses that hints at a universal interlingua representation in our models and show some interesting examples when mixing languages.
translated by 谷歌翻译